Emergent of Complexity via Multi-Agent Competition

複雑な環境は作成が困難

シンプルな環境で複雑な行動を創発させられる

Run to Goal：相手より早く正面のゴールに到達する

You Shall Not Pass：片方はゴールをめざし、片方は阻止する

Sumo：相手をステージの外に出すか、ステージ上に倒す(相撲)

シンプルな環境でも、非常に複雑な行動が創発される可能性がある

たとえば囲碁の環境とルールは単純だが、勝つためには非常に複雑な戦略が必要

環境の複雑性がエージェントに依存するため，エージェントの学習が進むにつれて環境がより複雑になる

同等の強さのエージェントと対戦(またはself-play)させることにより、エージェントの実力に関係なく適切な難易度のタスクを提供できる

Trapit Bansal, Jakub Pachocki, Szymon Sidor, Ilya Sutskever, Igor Mordatch

(Submitted on 10 Oct 2017 (v1), last revised 14 Mar 2018 (this version, v3))